近年来,基于深度学习的语言增强表现出前所未有的性能。最受欢迎的单声道语音增强框架是端到端网络将嘈杂的混合物映射到清洁语音的估计。随着计算能力的增长和多通道麦克风录制的可用性,目前的作用旨在将空间统计信息与光谱信息一起融合以提高性能。尽管Mono输出的增强性能提高,但空间图像保存和主观评估在文献中没有大量关注。本文提出了一种用于语音增强的新颖立体感知框架,即,基于深度学习的语音增强的训练损失,以在增强立体声混合物的同时保留空间图像。所提出的框架是独立的模型,因此它可以应用于任何基于深度学习的架构。我们通过聆听测试提供对训练有素的模型的广泛目标和主观评估。我们表明,通过规范进行图像保存损失,整体性能得到改善,并且演讲的立体方面更好地保存。
translated by 谷歌翻译